@理解业力警察:基于分布语义的名词复合词可接受性研究

Understanding Karma Police: The Perceived Plausibility of Noun Compounds as Predicted by DistributionalModels of Semantic Representation

核心思想

本研究使用分布式语义模型 (DSMs) 来预测人们对名词复合词(例如 校车 school bus vs. 马鞍橄榄 saddle olive)的合理性感知。研究发现,合理性并非由单一因素决定,而是由三个关键语义关系的复杂、非线性交互作用共同决定的:

  1. 中心词邻近度 (Head Proximity)
  2. 修饰词邻近度 (Modifier Proximity)
  3. 成分相似度 (Constituent Similarity)

研究结果指向一种认知加工模型:大脑在处理时会分层或交互地使用这些线索,当复合词的意义不明确时,会依赖更简单的线索(如词汇相似性或熟悉度)作为“备用方案”。


1. 引言与研究问题

2. 名词复合词:定义与分类

3. 名词复合词的合理性

4. 名词复合词的理解理论

4.1 语言学方法

4.2 心理学方法:概念组合 (Conceptual Combination)

5. 研究方法: 组合性分布式语义模型

本研究的核心方法是将词汇和复合词的意义表示为数学向量。

5. 1 分布式语义模型 (DSMs)

5. 2 DSMs 中的组合性 (Compositionality)

一个关键挑战是如何表示那些可能从未在语料库中出现过的复合词的意义。其意义必须由其构成部分组合而成。

5. 3 实验设计

复合词的向量是怎么得到的💡

作者采用了一种组合性的方法,即通过其构成部分(修饰词和中心词)的向量来数学上推导出整个复合词的向量。

他们采用的具体模型叫做 “词汇函数模型” (Modifier Lexical Function Model),由 Baroni 和 Zamparelli (2010) 提出。

核心思想:修饰词是一个“动作”或“函数”

这个模型有一个非常直观的类比:

  • 中心词 (Head) 是一个物体概念,由一个向量 h 表示。
  • 修饰词 (Modifier) 不是一个简单的物体,而是一个动作函数,它作用于中心词,将其“变换”成一个新的概念。这个“动作”由一个矩阵 (Matrix) M 表示。

因此,计算复合词向量 c 的过程,就是将代表“动作”的矩阵 M 应用于代表“物体”的向量 h 上。

数学公式为:

c=Mh

其中:

  • c 是我们要求解的复合词向量
  • h 是已知的中心词向量(可以直接从训练好的词向量空间中获取)。
  • M 是代表修饰词的变换矩阵

关键的挑战在于:如何得到这个代表修饰词的矩阵 M

获取修饰词矩阵 M 的过程 (分为“学习”和“应用”两步)

这个过程需要一个“学习”或“训练”阶段,让模型从已有的例子中学会每个修饰词通常扮演什么样的“变换”角色。

第一步:学习/训练阶段 (Learning Phase)

我们以为修饰词 moon (月亮) 学习其变换矩阵 M_moon 为例:

  1. 收集训练数据: 首先,从巨大的语料库中找出所有以 moon 作为修饰词的已知复合词。比如,我们找到了 moon calendar (月历), moon landing (登月), moon walk (太空步) 等。

  2. 获取已知向量: 对于每一个找到的例子(比如 moon landing),我们已经拥有两个关键的向量:

    • 中心词向量: 也就是 landing 的向量 hlanding。这个向量是我们事先已经训练好的。
    • 整个复合词的“观测”向量: 我们把 moon landing 视为一个独立的单词,通过它在语料库中的整体上下文,计算出它的向量 cmoonlanding。这个向量代表了 moon landing 这个词的“真实”含义。
  3. 求解矩阵 (核心步骤): 现在,我们有了一系列的“输入-输出”对:

    • 输入 hcalendar,期望输出接近 cmooncalendar
    • 输入 hlanding,期望输出接近 cmoonlanding
    • 输入 hwalk,期望输出接近 cmoonwalk

    我们的目标是找到一个独一无二的矩阵 M_moon,当它分别乘以这些不同的中心词向量时,得到的结果能与我们“观测”到的复合词向量尽可能地接近。这是一个典型的回归 (Regression) 问题。模型通过算法找到一个最优的 M_moon,使得所有预测向量和真实向量之间的总误差(通常是欧几里得距离)最小。

    这个学习到的矩阵 M_moon,就编码了 moon 这个词在充当修饰词时,通常会对其中心词的意义进行何种“语义变换”的信息。

第二步:应用/预测阶段 (Application Phase)

一旦我们为常见的修饰词(如 moon, school, mountain 等)都学习到了它们各自的变换矩阵 M,我们就可以用它来生成全新的、从未见过的复合词的向量了。

例如,我们要计算新创词 mountain eagle (山鹰) 的向量:

  1. 我们不需要在语料库里找 mountain eagle
  2. 我们从词向量空间中提取出中心词 eagle 的向量 heagle
  3. 我们使用在第一步中为修饰词 mountain 学到的变换矩阵 M_mountain
  4. 执行矩阵乘法:cmountain eagle=Mmountainheagle
  5. 这样,我们就组合出了一个全新的复合词向量 cmountain eagle。这个新向量生活在与单个词向量相同的语义空间中,因此我们可以计算它与其他词(包括其构成成分)的相似度了。

总结

文章中复合词的向量是通过一个两步过程得到的:
9. 学习: 对每一个修饰词,通过其在语料库中已有的复合词实例,学习一个专属的“语义变换矩阵 M”。
10. 应用: 将这个学到的矩阵 M 乘以目标中心词的向量 h,从而数学上合成出最终的复合词向量 c

这种方法的强大之处在于,它不仅能表示已有的复合词,更能为无限的新创复合词生成合理的语义表示,这与人类语言的创造性高度契合。

6. 关键的合理性度量指标 (预测变量)

研究人员从计算出的向量中推导出了几个假设可以预测合理性的度量指标。通过分析它们的交互作用,发现以下三个最为关键:

6. 1 中心词邻近度 (Head Proximity)

6. 2 修饰词邻近度 (Modifier Proximity)

6. 3 成分相似度 (Constituent Similarity)

6. 4邻域密度 (Neighbourhood Density)

6. 5熵 (Entropy)

7. 实验结果:非线性的交互作用

预测变量和分析过程🐞

1. 预测变量 (Predicting Variables)

该研究使用的预测变量主要分为两大类:

A. 合理性度量指标 (Plausibility Measures)
这些是研究的核心理论变量,直接从复合词及其成分的词向量计算得出:

  • 中心词邻近度 (Head Proximity)
  • 修饰词邻近度 (Modifier Proximity)
  • 成分相似度 (Constituent Similarity)
  • 邻域密度 (Neighbourhood Density)
  • 熵 (Entropy)

B. 协变量 (Covariates)
这些是传统的语言学或心理语言学变量,作为控制变量或基线预测变量,以确保合理性度量指标的效果不是由这些基本因素驱动的。

  • 长度 (Length):修饰词和中心词的字母长度。
  • 频率 (Frequency)
    • 修饰词的对数频率。
    • 中心词的对数频率。
    • 词对的对数频率 (包括正序和反序,例如 "tree apple" 和 "apple tree" 的频率都会被考虑)。
  • 家族大小 (Family Size):一个词作为修饰词或中心词出现在多少个不同复合词中的数量。(注意:在模型构建的初始阶段,该变量因与词频高度相关而被剔除了)。
  • 点互信息 (Pointwise Mutual Information, PMI):衡量修饰词和中心词之间的关联强度。

2. 统计模型的建构过程

研究人员采用了一种系统性的、分步骤的方法来构建其统计模型,该模型的核心是广义可加模型 (Generalized Additive Models, GAMs)。选择GAMs是因为它们能够灵活地捕捉变量之间复杂的非线性关系交互作用

以下是具体的构建步骤:

第一步:建立基线模型 (Baseline Model)

  1. 初始设定:首先,模型包含了所有的协变量(长度、频率、PMI等)作为固定的线性效应。
  2. 加入随机效应:为了控制不同单词本身带来的差异,模型中加入了“中心词”和“修饰词”的随机效应 (random effects)。这可以解释为什么某些词天生就更容易构成合理的复合词。
  3. 模型简化:通过显著性检验(Wald tests),研究人员剔除了那些对结果没有显著影响的协变量(如此前提到的“家族大小”)。最终,只保留了显著的协变量,形成了一个最精简但有效的基线模型。

第二步:逐步加入合理性度量指标

这是模型构建的核心。研究人员没有一次性把所有合理性指标都放进模型,而是采用了一种前向逐步选择 (step-wise procedure) 的方法:

  1. 逐一测试:在基线模型的基础上,每次只尝试加入一个新的合理性度量指标(如先加入“中心词邻近度”),或者加入一个已存在指标的交互作用项。
  2. 模型比较:使用似然比检验 (Likelihood-ratio tests) 来判断新加入指标的模型是否显著优于前一步的模型。
  3. 择优录取:如果在某一步有多个指标都能显著改善模型,研究人员会选择那个使赤池信息准则 (Akaike Information Criterion, AIC) 值最低的模型。AIC是一个衡量模型拟合优度和复杂度的标准,AIC越低通常代表模型越好。
  4. 测试交互作用:只有当两个指标的单独效应(主效应)已经被包含在模型中时,研究人员才会去测试这两个指标的交互作用 (interaction effects)。并且,他们还特别测试了这些指标与“词对频率”(即熟悉度)的交互作用。

第三步:形成最终模型与模型诊断

  1. 最终模型:通过上述逐步过程,最终确定的模型包含了几个协变量的线性效应,以及三个关键的非线性交互作用
    • 中心词邻近度 × 修饰词邻近度
    • 修饰词邻近度 × 成分相似度
    • 成分相似度 × 词对频率
  2. 模型诊断 (Model Criticism):为了确保模型的稳健性,研究人员还进行了诊断:
    • 他们移除了离群值 (outliers) 后重新拟合模型,发现结果依然稳健。
    • 他们验证了模型中的非线性关系是必要的,因为如果用简单的线性关系替换,模型效果会显著变差。

统计模型显示,没有任何一个 单一指标能独立完美预测合理性。起决定性作用的是三个核心指标之间的三个非线性交互作用

交互作用 1: 中心词邻近度 & 修饰词邻近度

交互作用 2: 修饰词邻近度 & 成分相似度

交互作用 3: 成分相似度 & 熟悉度 (词频)

8. 讨论 (Discussion)

8. 2 合理性判断的整合机制模型

本研究结果指向一个分层或多策略的认知机制:

  1. 第一层 (组合加工): 大脑首先尝试通过语义组合来构建复合词的意义。如果 中心词邻近度 高且 修饰词邻近度 适中,则判断为合理。
  2. 第二层 (连贯性检查): 如果第一层失败(如修饰词贡献模糊),则退而求其次,检查 成分相似度。高相似度可以弥补组合上的困难。
  3. 第三层 (词库查找): 如果第二层也失败(成分不相关),则最后依赖 熟悉度。高频出现的复合词,即使语义不透明,也会被判断为合理。

8. 3 显性判断 vs. 实时加工

本研究使用的是显性评分数据,因此提出的机制模型不一定代表严格的时间顺序。在实时语言加工中,这些因素很可能是并行 (parallel) 计算并相互作用的。

8. 4 组合性的角色

研究结果表明,即使是高度熟悉、已词汇化的复合词(如 snowball),其加工过程也似乎涉及其成分的组合,而不仅仅是作为一个整体从记忆中提取。这支持了组合性加工在复合词理解中普遍存在的观点。

Lexical Function 和Full Additive Model

词汇功能模型 (Lexical Function Model)

1. 基本思想
这个模型的核心思想是不对称的。它认为在名词复合词(修饰词 + 中心词)中,修饰词和中心词扮演着完全不同的角色:

  • 中心词 (head) 是一个概念实体,由一个向量表示。
  • 修饰词 (modifier) 不是一个实体,而是一个函数或操作,它作用于中心词的向量,对其进行转换,从而生成复合词的向量。

2. 数学公式
复合词向量 c 的计算方式如下:
c = M ⋅ h

  • c: 最终生成的复合词向量。
  • h: 中心词 (head) 的词向量。
  • M: 一个转换矩阵 (transformation matrix),这个矩阵代表了修饰词。请注意,这里代表修饰词的不是它自己的词向量 m,而是一个矩阵 M

3. 工作原理
修饰词矩阵 M 是如何得到的?它是通过学习得来的。

  • 训练过程:模型会从大型语料库中找到所有以某个特定词(比如 "moon")作为修饰词的已知复合词(如 "moon landing", "moon walk", "moon stone")。
  • 学习目标:模型的目标是学习一个最优的矩阵 M_moon,当这个矩阵 M_moon 分别与 "landing", "walk", "stone" 的向量相乘时,得到的结果能最接近语料库中 "moon landing", "moon walk", "moon stone" 的实际词向量。
  • 应用:一旦学习到了代表 "moon" 这个修饰词的矩阵 M_moon,我们就可以用它来计算新的、甚至从未见过的复合词,比如计算 "moon house" 的向量,只需用 M_moon 乘以 "house" 的向量 h 即可。

4. 优缺点

  • 优点:能够捕捉到修饰词非常具体、独特的功能。例如,"olive" 在 "olive oil" 和 "olive tree" 中的修饰作用是不同的,这个模型理论上可以学到这种特定于修饰词的转换模式。
  • 缺点
    • 生产力有限:它只能为那些在训练语料中频繁作为修饰词出现的词计算矩阵 M。如果一个词从未或很少作修饰词,就无法为它学习一个可靠的矩阵。
    • 心理学上的疑问:这个模型在计算中完全忽略了修饰词本身的概念向量 m,这似乎与人的直觉不符——我们在理解 "moon landing" 时,显然动用了 "moon" 本身的概念。

全加性模型 (Full Additive Model)

1. 基本思想
这个模型更加通用和对称。它认为修饰词和中心词都是概念实体(都由向量表示),它们共同对最终的复合词含义做出贡献。最终的复合词向量是两个经过转换后的成分向量的加和

2. 数学公式
复合词向量 c 的计算方式如下:
c = A ⋅ m + B ⋅ h

  • c: 最终生成的复合词向量。
  • m: 修饰词 (modifier) 的词向量。
  • h: 中心词 (head) 的词向量。
  • AB: 这是两个通用的权重矩阵A 学习的是任何修饰词通常如何贡献意义,而 B 学习的是任何中心词通常如何贡献意义。

3. 工作原理
矩阵 AB 也是通过学习得到的,但它们不是针对某个特定的词,而是全局性的。模型会观察大量的各种不同的复合词,学习出一个普适的 AB,使得对于任意复合词 m+hA⋅m + B⋅h 的计算结果都能最接近其在语料库中的真实向量。

4. 优缺点

  • 优点
    • 生产力极高:只要你有任意一个修饰词 m 和中心词 h 的向量,你就可以用这个公式计算出它们的复合词向量。它不需要预先为每个修饰词学习特定的矩阵。
    • 心理学上更合理:它明确地将修饰词和中心词两者的向量都纳入了计算,承认了两者都对最终含义有贡献。
  • 缺点
    • 可能过于通用:由于 AB 是全局性的,它可能无法捕捉到词与词之间非常特殊的、个性化的组合关系。

      作者的选择:

尽管全加性模型在理论上和心理学直觉上似乎更优越、更具普遍性,但作者在论文的结论和附录部分明确指出,他们选择词汇功能模型是纯粹基于经验结果 (a purely empirical one)

也就是说,在他们的预备测试中,使用词汇功能模型计算出的复合词向量,在预测人类对复合词的合理性评分这项具体任务上,表现得远远好于全加性模型。这说明,对于名词复合词的合理性判断而言,捕捉修饰词那种独特的、功能性的转换作用,可能比一个通用的组合规则更为关键。

9. 结论

名词复合词的感知合理性并非其各部分的简单相加,而是一个复杂的认知评估过程,它依赖于组合意义的构建、成分的语义连贯性以及已存储的知识(熟悉度)之间的动态交互。分布式语义模型为我们形式化并检验这些复杂关系提供了一个强有力的框架。